The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.
translated by 谷歌翻译
Monocular depth estimation is a challenging problem on which deep neural networks have demonstrated great potential. However, depth maps predicted by existing deep models usually lack fine-grained details due to the convolution operations and the down-samplings in networks. We find that increasing input resolution is helpful to preserve more local details while the estimation at low resolution is more accurate globally. Therefore, we propose a novel depth map fusion module to combine the advantages of estimations with multi-resolution inputs. Instead of merging the low- and high-resolution estimations equally, we adopt the core idea of Poisson fusion, trying to implant the gradient domain of high-resolution depth into the low-resolution depth. While classic Poisson fusion requires a fusion mask as supervision, we propose a self-supervised framework based on guided image filtering. We demonstrate that this gradient-based composition performs much better at noisy immunity, compared with the state-of-the-art depth map fusion method. Our lightweight depth fusion is one-shot and runs in real-time, making our method 80X faster than a state-of-the-art depth fusion method. Quantitative evaluations demonstrate that the proposed method can be integrated into many fully convolutional monocular depth estimation backbones with a significant performance boost, leading to state-of-the-art results of detail enhancement on depth maps.
translated by 谷歌翻译
点对特征(PPF)广泛用于6D姿势估计。在本文中,我们提出了一种基于PPF框架的有效的6D姿势估计方法。我们介绍了一个目标良好的下采样策略,该策略更多地集中在边缘区域,以有效地提取复杂的几何形状。提出了一种姿势假设验证方法来通过计算边缘匹配度来解决对称歧义。我们对两个具有挑战性的数据集和一个现实世界中收集的数据集进行评估,这证明了我们方法对姿势估计几何复杂,遮挡,对称对象的优越性。我们通过将其应用于模拟穿刺来进一步验证我们的方法。
translated by 谷歌翻译
社区检测是网络科学的基本和重要问题,但只有几个基于图形神经网络的社区检测算法,其中无监督的算法几乎是空白的。通过融合具有网络功能的高阶模块化信息,本文首次提出了基于变分AualiCoder重建的社区检测VGGAer,并给出了其非概率版本。他们不需要任何先前的信息。我们精心设计了基于社区检测任务的相应输入功能,解码器和下游任务,这些设计简洁,自然,表现良好(我们的设计下的NMI值得到59.1%-565.9%)。基于一系列具有广泛数据集和先​​进方法的一系列实验,VGAER实现了卓越的性能,并具有更简单的设计竞争力和潜力。最后,我们报告了算法收敛性分析和T-SNE可视化的结果,清楚地描绘了VGAER的稳定性能和强大的网络模块化能力。我们的代码可在https://github.com/qcydm/vgaer提供。
translated by 谷歌翻译
本文考虑了最近流行的超越最坏情况算法分析模型,其与在线算法设计集成了机器学习预测。我们在此模型中考虑在线Steiner树问题,用于指向和无向图。据了解施泰纳树在线设置中具有强大的下限,并且任何算法的最坏情况都远非可取。本文考虑了预测哪个终端在线到达的算法。预测可能是不正确的,并且算法的性能由错误预测的终端的数量进行参数化。这些保证确保算法通过具有良好预测的在线下限,并且随着预测误差的增长,竞争比率优雅地降低。然后,我们观察到该理论是预测将经验发生的事情。我们在终端从分发中绘制的图表中显示了终端,即使具有适度正确的预测,新的在线算法也具有很强的性能。
translated by 谷歌翻译
离线强化学习利用静态数据集来学习最佳策略,无需访问环境。由于代理商在线交互的展示和培训期间的样本数量,这种技术对于多代理学习任务是可取的。然而,在多代理强化学习(Marl)中,从未研究过在线微调的离线预训练的范式从未研究过,可以使用离线MARL研究的数据集或基准。在本文中,我们试图回答违规在Marl中的离线培训是否能够学习一般的政策表现,这些问题可以帮助提高多个下游任务的性能。我们首先引入基于Starcraftia环境的不同质量水平的第一个离线Marl数据集,然后提出了用于有效的离线学习的多代理决策变压器(MADT)的新颖体系结构。 MADT利用变换器的时间表示的建模能力,并将其与离线和在线MARL任务集成。 Madt的一个至关重要的好处是,它学会了可以在不同任务场景下不同类型的代理之间转移的可稳定性政策。当在脱机目的Datline数据上进行评估时,Madt展示了比最先进的离线RL基线的性能卓越。当应用于在线任务时,预先训练的MADT显着提高了样品效率,即使在零射击案件中也享有强大的性能。为了我们的最佳知识,这是第一个研究并展示了在Marl中的样本效率和最常性增强方面的离线预训练模型的有效性。
translated by 谷歌翻译
这项工作的目的是优化恒流平行机械位移Micropump的性能,其具有平行泵室并包含被动止回阀。关键任务是最大限度地减少由反流引起的压力脉冲,这在往复运动中互换运动期间对恒定流速产生负面影响,当左右泵交换它们的吸入和输血的作用时。以前的作品试图通过被动止回阀的机械设计来解决这个问题。在这项工作中,提出了重叠时间的新颖概念,并且通过实施无监督和监督学习培训的RBF神经网络来解决了控制理论的方面解决了问题。实验结果表明,与40MPa的最大泵工作压力相比,压力脉冲在0.15-0.25MPa的范围内进行了优化,这是一个显着的改进。
translated by 谷歌翻译
我们解决了3D箱包装问题的具有挑战性但实际上有用的变体(3D-BPP)。在我们的问题中,代理有关于要包装到垃圾箱的物品的信息有限,并且必须在无缓冲或重新调整的情况下立即包装项目。该项目的展示位置也受到碰撞避免和物理稳定的限制。我们将此在线3D-BPP制定为受限制的马尔可夫决策过程。为了解决问题,我们提出了演员 - 评论家框架下有效且易于实施的受限约束的深度加强学习(DRL)方法。特别地,我们介绍了一种可行性预测器来预测放置动作的可行性掩模,并使用它来调制训练期间actor输出的动作概率。这些监督和转型为DRL促进了代理人有效学习可行的政策。我们的方法也可以推广例如,能够处理具有不同方向的护目理或物品。我们进行了广泛的评估,表明学习政策显着优于最先进的方法。用户学习表明我们的方法达到了人级表现。
translated by 谷歌翻译
公司的在线语义3D分段具有实时RGB-D重建的特殊挑战,例如如何直接在逐步融合的3D几何数据上执行3D卷积,以及如何从帧到帧巧妙地融合信息。我们提出了一种新的融合感知的3D点卷积,其直接在重建的几何表面上运行并有效地利用高质量3D特征学习的帧间相关性。这是由专用动态数据结构启用,该数据结构组织了与全局本地树的在线获取的点云。在全球范围内,我们将在线重建的3D点编译为递增的较长坐标间隔树,从而实现快速点插入和邻域查询。在本地,我们使用OctREE维护每个点的邻居信息,该octree使用全局树的快速查询的构建优势。动态更新的树木更新,并帮助3D卷积有效利用RGB-D帧的有效信息融合的时间一致性。
translated by 谷歌翻译
我们提出了一种新颖的方法,以基于在线RGBD重建与语义分割的在线RGBD重建,提出了一种对未知的室内场景的机器人工作的主动理解。在我们的方法中,探索机器人扫描是由场景中语义对象的识别和分割的驱动和定位。我们的算法基于体积深度融合框架(例如,KinectFusion)之上,并在在线重建卷上执行实时Voxel的语义标记。机器人通过在2D位置和方位角旋转的3D空间上参数化的在线估计的离散观看截由场(VSF)。 VSF为每个网格存储相应视图的分数,测量它减少了几何重建和语义标记的不确定性(熵)。基于VSF,我们选择每个时间步骤的下一个最佳视图(NBV)作为目标。然后,我们通过沿路径和轨迹最大化积分观看分数(信息增益)来共同优化遍历两个相邻的NBV之间的横向路径和相机轨迹。通过广泛的评估,我们表明我们的方法在探索性扫描期间实现了高效准确的在线场景解析。
translated by 谷歌翻译